Approche innovante pour la recherche et l'extraction coopérative et dynamique d'informations sur Internet

نویسندگان

  • Xavier Denis
  • Gaëlle Simon
  • Nicolas Chanchevrier
چکیده

Résumé. Il existe de nombreuses techniques qui permettent de classifier des documents textuels en fonction du centre d’intérêt d’un utilisateur (kNN, SVM, . . .). Malheureusement, l’intégration de ces méthodes dans des plate-formes de textmining est souvent très statique et ne permet pas facilement d’affiner les traitements et/ou résultats au cours du temps. Le but de cet article est de présenter une plate-forme de webmining dans laquelle les données hétérogènes sont représentées uniformément selon un formalisme XML/TEI et où l’utilisateur peut interagir sur les processus de récupération et d’analyse de ces données. Pour cela, les modules de traitements sont représentés par des agents fonctionnant sur la plate-forme MadKit et l’apprentissage se fait sur une méthode dérivée de VSM et TFIDF utilisant un principe de listes noires pondérées permettant la reconnaissance de documents indésirables. La dynamique de la plate-forme repose principalement sur la possibilité d’ajouter à la volée des agents de traitement et de pouvoir modifier l’ordre et les paramètres d’analyse des documents.

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

Intégration de règles d'association pour améliorer la recherche d'informations XML

RÉSUMÉ. La reformulation de requêtes constitue un moyen d’améliorer la recherche d’informations, en particulier lorsque cela concerne des documents XML. Les approches existantes se basent sur une connaissance du domaine (thésaurus, ontologie) pour étendre la requête initiale. Nous proposons une approche de reformulation automatique basée sur une technique de datamining. Nous intégrons les règle...

متن کامل

Recherche par le contenu dans des documents audiovisuels multilingues

RÉSUMÉ. Nous présentons dans cet article une approche basée sur l’utilisation de l’Alphabet Phonétique International (API) pour l’indexation et la recherche par le contenu de documents audiovisuels multilingues. L’approche fonctionne même si les documents contiennent des langues inconnues. Elle a été validée dans le cadre de la compétition « Star Challenge » sur les moteurs de recherche organis...

متن کامل

Interrogation flexible et coopérative d'une BD par abstraction conceptuelle hiérarchique

RÉSUMÉ. L' interrogation des bases de données (BD) nécessite une connaissance précise et détaillée des données et de leur organisation. L’interrogation flexible tente de rendre l’interrogation classiques des BD plus souple pour les utilisateurs. Plusieurs approches d’interrogation flexible ont été proposées dans la littérature. Nous proposons, dans ce papier, une approche flexible et coopérativ...

متن کامل

L'intelligence économique coopérative. Une approche par les réseaux

L'intelligence économique est un domaine de recherche prometteur. Le concept est entré dans sa phase de maturation mais, néanmoins, il nécessite la production d'un cadre référentiel s'appuyant sur une réflexion pluridisciplinaire. Pour la pratique de l'intelligence économique, les stratégies de coopération demeurent primordiales. Cependant la coopération interentreprises recouvre des approches ...

متن کامل

Une approche de classification non supervisée basée sur la détection de singularités et la corrélation de séries temporelles pour la recherche d'états : application à un bioprocédé fed-batch

Résumé. Nous proposons dans cet article une méthode de clustering qui combine l’analyse dynamique et l’analyse statistique pour caractériser des états. Il s’agit d’une méthode de fouille de données qui travaille sur des ensembles de séries temporelles pour détecter des états; ces états représentent les informations les plus significatives du système. L’objectif de cette méthode non supervisée e...

متن کامل

ذخیره در منابع من


  با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

عنوان ژورنال:

دوره   شماره 

صفحات  -

تاریخ انتشار 2004